Análise Multivariada - Aula 1 - Parte I

Mestrado Profissional em Administração

Prof. Washington Santos da Silva

IFMG - Campus Formiga

15 de outubro de 2023

Summário: Aula 1

  • Apresentação da Disciplina (slides01_parte01)

  • RStudio: Ambiente de Desenvolvimento Integrado (slides_parte01)

  • Introdução à Linguagem R (slides01_parte02)

  • Documentos computacionais:

    • script: aula01_script.R
    • notebook: aula01_notebook.Rmd

Apresentação da Disciplina

Ambiente Virtual de Aprendizagem

  • Os materiais para a disciplina serão disponibilizados no Ambiente Virtual de Aprendizagem (Moodle) do IFMG:

  • https://ead.ifmg.edu.br/formiga/

  • O usuáiro/email e a senha para acesso ao AVA são os mesmos que vocês utilizam para acessar o sistema de registro e contole acadêmico Meu IFMG.

  • Vocês deverão submeter exercícios, provas e outras atividades no AVA.

Ementa

  1. Fundamentos de Análise de Dados
  • Linguagem R
  • RStudio IDE
  • Documentos computacionais (scrpts, notebooks, quarto documents)
  1. Análise de Regressão

  2. Análise de Componentes Principais

  3. Análise Fatorial

  4. Análise de Agrupamentos

  5. Se houver tempo: Introduçào aos Modelos de Equações Estruturais

Objetivos

  • A ênfase deste curso está na aplicação e implementação dos métodos para analisar dados em um contexto multivariado.

  • Embora a teoria estatística seja empregada quando necessário, o foco do curso será o uso adequado das técnicas.

  • Isso abrange a verificação das suposições dos métodos em relação aos dados, a estimativa de modelos e a avaliação da qualidade do ajuste, bem como a interpretação e validação dos resultados.

  • Ao final do curso, espera-se que os participantes sejam capazes de:

    1. Identificar um método multivariaddo correto para abordar uma questão de pesquisa específica.

    2. Entender e implementar de forma independente as diferentes etapas da aplicação de uma análise multivariada de dados usando a linguage R.

    3. Desenvolver relatórios de análises de dados reproduzíveis e auditáveis.

Contexto

  • As disciplinas modernas sobre análise de dados (Estatística, Econometria, Aprendizagem Estatística…) são fundamentalmente disciplinas computacionais, mas é fácil constatar que este fato não se reflete na formação dos profissionais das ciências sociais aplicadas (e de outras ciências).

  • Com a ascensão dos Big Data e da Ciência de Dados, tornou-se cada vez mais claro que para formarmos pesquisadores e profissionais preparados para os desafios atuais, é necessária um formação explícita em técnicas e ferramentas computacionais.

  • Além disso, as diretrizes curriculares recentes afirmam claramente que trabalhar com dados requer extensas habilidades de computação e que os profissionais de admnistração, e certamente dos profissionais das demais áreas, devem ser fluentes no acesso, manipulação, análise e modelagem de dados com softwares e procedimentos profissionais.

Referências

  • HAIR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise Multivariada de Dados. 6 ed., 2009, Porto Alegre: Bookman. (Disponível na biblioteca do campus).

  • WICKHAM, Hadley; ÇETINKAYA-RUNDEL, Mine; GROLEMUND, Garrett. R for data science. import, tidy, transform, visualize, and model data. 2nd. ed. 2023. O’Reilly Media, Inc. Disponível em: https://r4ds.hadley.nz.

Avaliações

  • Listas de Exercícios: 30 pontos (diversos serão realizados durante as aulas).
  • Exame 1: 30 pontos
  • Exame 2: 40 pontos

Dias/Horários/Atividades

Planejamento.
Dia Horário Exames
16/10/23 18:30 - 22:30 .
23/10/23 18:30 - 22:30
30/10/23 18:30 - 22:30
06/11/23 18:30 - 22:30
13/11/23 18:30 - 22:30 Exame 1
20/11/23 18:30 - 22:30
27/11/23 18:30 - 22:30
04/12/23 18:30 - 22:30 Exame 2

Recomendações

Assuma a responsabilidade pela sua aprendizagem:

  • Invista o tempo necessário.

  • Seja proativo e curioso (caso contrário, não deveria tentar cursar um mestrado).

  • Entre em tocas de coelho.

  • Aprenda a aprender de forma independente (sofisticação técnica).

Softwares necessários

Programas

Instalando a Linguagem R 4.3.1

  1. Acesse https://cloud.r-project.org/

  2. Selecione o sistema operacional, clicando em Download R for Windows por exemplo.

  3. Na página seguinte clique em base

  4. Clique em Download R-4.3.1 for Windows

  5. Feito o download basta ir clicando em próximo/next até a instalação ser concluída.

Instalando o IDE RStudio

  1. Acesse https://posit.co/download/rstudio-desktop/

  2. Em geral, o site detecta seu sistema operacional e disponibiliza o instalador adequado loga abaixo de 2: Install RStudio.

  3. Clique em Download RStudio Desktop for Windows caso seu sistema operacional seja Windows.

  4. Todos os instaladores são disponibilizados na página anterior, após a seção All Installers and Tarballs

Instalando o Sistema de Publicação Quarto

  1. Acesse https://quarto.org/docs/download/

  2. Percorra a página, encontre o executável para Windows: quarto-1.3.450-win.msi e, finalizado o download, instale clicando no arquivo.

A Linguagem R

Por que aprender a linguagem R?

  • R é uma linguagem de programação de domínio específico, foi criada para analisar dados.

  • A linguagem R não envolve cliques, e isso é uma coisa boa

  • Analisar dados com a linguagem R é ótimo para reprodutibilidade

  • A linguagem R é interdisciplinar e extensível

  • A linguagem R é capaz de analisar dados de todas as formas e tamanhos

  • A linguagem R produz gráficos de alta qualidade.

  • A linguagem R tem uma comunidade grande e acolhedora (Cross Validated, Posit Community){target=“_blank”}

  • A linguagem R não é apenas gratuita, mas também é de código aberto e multiplataforma.

Popularidade da Linguagem R

Fonte: PYPL index — April 2023 update

Conhecendo o RStudio

RStudio IDE x Linguagem R

Analogia da diferença entre R e RStudio

  • R é uma linguagem de programação, enquanto o RStudio é um Integrated Development Environment que contém recursos que facilitam o uso da linguagem R.

Configurações Iniciais do RStudio

Para acessar as configurações do Rstudio, você precisa clicar em:

  • RStudio > Tools > Global Options ou pelo atalho Ctrl + , (Windows)

  • RStudio > Tools > Global Options ou pelo atalho Cmd + , (Macintosh).

Configurações: General: Basic

  • Restore most recently opened project at startup

  • Restore previsouly open source documents at startup

  • Restore .Rdata into workspace at startup

  • Em Workspace, escolha Never em Save workspace to .RData on exit.

  • Finalizadas as operações, clique em Apply -> Ok.

Configurações: Code: Editing

Verifique se as seguintes opções estão selecionadas:

  • Auto-indent code after paste
  • Insert matching parens/quotes
  • Enable code snippets

Configurações: Code: Display

Verifique se as três primeiras opções estão selecionadas:

  • Highlight selected word
  • Highlight selected line
  • show line numbers
  • Finalizadas as operações, clique em Apply -> Ok.

Interface do RStudio

Painel: Source

  • O painel Source permite que a visualização e edição de vários arquivos relacionados a diversas linguagens, tais como: .R, .qmd,.rmd .py, ou arquivos de texto gerais como .txt ou .md.

  • Por padrão, é o painel superior esquerdo e pode ser iniciado abrindo qualquer arquivo editável no RStudio.

  • Cada arquivo adicional que for aberto será adicionado como uma nova guia no painel.

  • Essa guia exibe também estruturas de dados ativas na sessão.

Painel: Console

  • Por padrão, o painel Console é o painel inferior esquerdo. Esse painel fornece uma área para executar o código interativamente. Por padrão, está vinculado a linguagem R ele também pode fornecer um console Python.

  • O painel Console também inclui uma guia Terminal integrada para executar comandos do sistema.

  • A guia Jobs em segundo plano fornece a capacidade de enviar scripts R de longa duração para trabalhos em segundo plano locais e remotos. Essa funcionalidade pode melhorar drasticamente a produtividade dos cientistas e analistas de dados usando o R.

  • Atalhos:

    • Ctrl+1: Move o foco para o painel Source
    • Ctrl+2: — Move o foco para o Console
    • Ctrl+L: Limpa o Console
    • Esc: Interromper R

Painel: Environment

  • Por padrão, o painel Environment está localizado no canto superior direito e inclui as guias:

  • Guia Environment:

    • Essa guia exibe objetos R e Python ativos na sessão atual.

    • O ícone R pode ser alternado entre objetos R ou Python.

    • A barra de menus de Environment fornece carregamento ou salvamento de R workspaces, importação interativa de conjuntos de dados de arquivos de texto, Excel ou SPSS/SAS/Stata.

    • Ela também exibe a memória usada pela sessão R ativa e um ícone de uma vassoura para remover todos os objetos ativos.

  • Guia History:

    • Essa guia exibe os comandos que foram executados na sessão atual e as pesquisas.

    • Existem botões para carregar/salvar o histórico de comandos em um arquivo, além de enviar o comando selecionado para o console ou inseri-lo no documento de trabalho atual.

Painel: Environment

  • Guia Connections:

    • Essa guia exibe conexões ativas para bancos de dados locais ou remotos.

    • Conexões adicionais possíveis podem ser adicionadas instalando drivers de banco de dados ou pacotes R específicos.

  • Guia Build:

    • A guia Build estará disponível em projetos R específicos, tais como no desenvolvimento de pacotes R e projetos Quarto/R Markdown.
  • Guia VCS (Version Control System):

    • A guia VCS será ativada caso se adote um sistema de controle de versão, o mais usado é o sistema Git.
  • Guia Tutorial

    • Disponibiliza tutoriais interativos sobre a linguagem R, pacotes, SQL, entre outros.
    • Instale o pacote learnr para usar os tutoriais.

Painel: Output

  • Por padrão, o painel Output é o painel inferior direito e exibe várias saídas, como gráficos, conteúdo HTML ou arquivos em disco. Contém as guias:

  • Guia Files:

    • Esta guia fornece uma exploração interativa da pasta de arquivos do Projeto R da sessão. Existem opções para adicionar novos arquivos e pastas, exclusão/renomeação de arquivos, entre outras.
  • Guia Plots:

    • Esta guia exibe imagens estáticas produzidas nba sessão. Há setas para navegar entre gráficos mais antigos e mais recentes, Zoom, um botão de exportação para salvar as imagens, um botão de exclusão imagem exibida e um ícone de vassoura que limpará TODOS os gráficos temporários desta guia.
  • Guia Packages:

    • Esta guia permite visualizar os pacotes R instalados, e há uma barra para pesquisar a biblioteca atual de pacotes. Há também um botão para instalação e atualização de pacotes.

Painel: Output

  • Guia Help:

    • Esta guia exibe a documentação e as vinhetas dos pacotes.
    • O ícone Home exibe a página de ajuda geral, com links para Recursos, Manuais, Referências e Suporte Posit.
  • Guia Viewer:

    • Esta guia exibe usada conteúdos interativos tais como: gráficos interativos, aplicativos Shiny, páginas html geradas pelo Quarto, entre outros.
  • Guia Presentation:

    • Esta guia é usada para exibir slides HTML gerados pelo sistema Quarto.

Gerenciamento de Arquivos

O RStudio suporta realce de sintaxe e outros recursos especializados de edição de código para tipos de arquivos específicos:

  • Scripts e Notebooks em R, Python, SQL

  • Documentos computacionais e científicos em Quarto, R Markdown e LaTeX.

  • Conteúdo da Web, como HTML, CSS

  • E muitos mais.

Criando arquivos

  • Uma alternativa é usar os elementos visuais no menu:

RStudio Projects

  • Cientistas e Analistas de dados mantêm todos os arquivos associados a um determinado projeto juntos e organizados em pastas/diretórios — dados, notebooks, scripts, relatórios etc.

  • Esta é uma prática tão sábia e comum que o RStudio tem suporte integrado para isso por meio dos Projects.

  • Os RStudio Projects tornam simples organizar seu trabalho em vários contextos, cada um com seu próprio diretório e documentos de origem.

Criando Projects

Os RStudio Projects estão associados a diretórios de trabalho.

Projetos RStudio podem ser criados:

  • Em um novo diretório

  • Em um diretório existente onde você já tem código R e dados

  • Clonando um repositório de controle de versão (Git ou Subversion)

Criando Projects

  • Para criar um novo projeto no RStudio, use File > New Project.

  • Ou use o botão New Project, disponível na barra de ferramentas Projects no canto superior direito:

  • Isso abrirá o pop-up New Project Wizard, clique em New Directory:

Criando Projects

Na janela seguinte selecione New Project:

Criando Projects

Criando Projects

  • Nesta janela digite o nome do diretório que você deseja criar no campo Directory name: (vamos nomeá-lo analise_multivariada_2023).

  • Se voce desejar mudar a localização do diretório, clique no botão Browse... e navegue para o local no qual deseja criar o diretório.

  • É recomendável marcar a caixa Open in new session.

  • Por fim, clique em Create Project para criar o novo projeto.

Criando Projects

Quando um novo projeto é criado, o RStudio:

  • Cria um arquivo de projeto (com extensão .Rproj) dentro do diretório do projeto. Este arquivo contém várias opções de projeto e também pode ser usado como um atalho para abrir o projeto diretamente do sistema de arquivos.

  • Cria um diretório oculto (.Rproj.user) onde arquivos temporários específicos do projeto são armazenados.

  • Carrega o projeto no RStudio e exibe seu nome na barra de ferramentas Projects.

Project Configurado

Project Criado

  • Agora que você tem um RStudio Project configurado.

  • Você pode começar a criar scripts R e documentos computacionais como notebooks, quarto projects, R markdown…, ou o que for necessário para concluir seu projeto.

  • Todos os arquivos de um projeto agora estarão contidos no
    RStudio Project e salvos na pasta do projeto.

  • As configurações que fizemos na Seção 4.3 afetam o comportamento dos projetos.

Project da Disciplina

  • Estrutura de pastas inicial recomendada para a disciplina:

    • C:/analise_multivariada_2023

      • /data_raw
      • /data_clean
      • /scripts
      • /notebooks
      • /exercicios
      • /slides
  • Podemos verificar o diretório de trabalho atual (o diretório para o qual R busca itens) usando o seguinte comendo no console:

getwd()
  • Considerando que você tenha criado o projeto analise_multivariada_2023 e esteja uma sessão deste projeto, podemos criar a estrutura de pastas recomendada usando os seguintes comandos no console:
dir.create(data_raw)
dir.create(data_clean)
dir.create(scripts)
dir.create(notebooks)
dir.create(exercicios)
dir.create(slides)

Linguagem R e o Sistema Operacional: Arquivos e Pastas

  • Em um ambiente Windows, a linguagem R pode ser uma maneira razoavelmente eficaz de automatizar a manipulação de arquivos e pastas (diretórios).

  • A linguagem R possui diversas funções para obter informações do sistema operacional e automatizar o gerenciamento de arquivos e pastas.

  • Entretanto, os usuários de sistemas baseados em Unix (Linux/macOS) geralmente já possuem maneiras mais elegantes de lidar com esses tarefas a partir da linha de comando.

  • Vejamos algumas funções da linguagem R que permitem realizar operaçòes diretamente no sistema operacional:

  1. getwd()

Retorna a pasta de trabalho atual:

getwd()
  1. Sys.Date(), Sys.time() e Sys.timezone()

Sys.time e Sys.Date retornam a ideia do sistema da data atual com e sem hora:

Sys.Date()
Sys.time()

Sys.timezone retorna o nome do fuso horário atual:

Sys.timezone()
  1. ls() e list.files()

ls retorna os nomes dos objetos ativos no ambiente atual:

ls()

list.files() retorna o nome de arquivos ou pastas do diretório de trabalho:

y <- 10
ls()
list.files()
  1. file.exists(), file.info() e file.create()
file.exists("02_tutorial_ggplot2.Rmd")
file.info("02_tutorial_ggplot2.Rmd")
file.create("README.txt")
file.remove("README.txt")
  1. dir.exists()
dir.exists("data_raw")

Wokflow dentro do RStudio

Existem duas maneiras principais de trabalhar dentro do RStudio:

  1. Teste o código diretamente no console R interativo e copie o código para um arquivo .R que pode ser executado posteriormente.
  • Isso funciona bem ao fazer pequenos testes.

  • Entretanto, rapidamente se torna ineficaz e trabalhoso.

  1. Escreva código em arquivo no painel Source e use as teclas de atalho do RStudio para enviar a(s) linha(s) selecionada(s) para o console.
  • Esta é uma ótima maneira de começar; todo o seu código estará salvo para uso posterior.

  • Você poderá executar o arquivo criado a partir dos menus do RStudio ou usando a função source() no caso de um script.

  1. Ao longo da disciplina iremos utilizar intensamente R Notebooks.

Executando segmentos do seu código em um script

O RStudio oferece grande flexibilidade na execução de código. Existem botões, opções de menu e atalhos de teclado.

Para executar uma linha de código, você pode:

  1. clicar no botão Run acima do editor, ou;

  2. selecionar Run Selected Lines a partir do menu Code, ou;

  3. Digigar Ctrl+Enter no Windows ou Linux ou Cmd+Return no OS X.

R Notebooks

Um Notebook R é um documento R Markdown com trechos de código que podem ser executados de forma independente e interativa, com a saída visível imediatamente abaixo do código.

Notebook R
  • Os R Notebooks são uma implementação da Programação Literada que permite a interação direta com R enquanto se produz um documento reproduzível cujo resultado possui qualidade para publicação.

Criando um Notebook

  • Você pode criar um novo notebook no RStudio com o comando do menu

    • File -> New File -> R Notebook

Inserindo Trechos de Código (conde chunks)

  • Trechos de código podem ser inseridos usando o atalho do teclado:

    • Ctrl + Alt + I (Windows/Linux)
    • Cmd + Option + I (macOS),
    • or pelo menu Insert a new code chunk.

Documentação

Acesse a Documentação sobre R Notebooks aqui